Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo
Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.
Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.